查看原文
其他

互为Prompts:大语言模型的预训练智能体到底意味着什么?

ai汤源 AI范儿 2023-08-21

图|汤源    
文|汤源    

│题图

题图来自Diffusing Hands by Andrew Krill 一次“AI Art”尝试, 参考的则是荷兰艺术家M.C. Escher于1948年1月首次印刷的一幅石版画-Drawing Hands,它描绘了一张纸,从中伸出两只手,以一种悖论的方式相互绘制。

这是Escher常用的悖论手法的最明显的例子之一。Escher喜欢创造一些让人深入观察和思考的作品,他的作品中经常出现一维和三维之间的转换和互动。Drawing Hands展示了Escher对于表现艺术中隐含的幻觉的探索,因为二维绘画和三维现实之间的界限被巧妙地悖接。   

题记

LLM大语言模型GPT-4的推出,突破了机器理解人类语言的极限,可以自然语言与AI生成式内容(AIGC)服务交互,无论是文本、还是图片生成,大家一直津津乐道的就是提示词工程了(Prompt Engineering)。  

 💡 提示词工程(Prompt Engineering)

是为了更好地与人工智能模型沟通而采用的方式和技巧,就像人们之间沟通的方式和技巧一样,能够帮助我们更准确地获取我们想要的结果。提示词工程的核心是如何设计合适的输入文本(即提示词),以激发人工智能模型的潜力,实现各种创造性或实用性的应用。


例如,使用 ChatGPT 这样的大语言模型,可以通过不同的提示词来生成不同风格的对话、故事、诗歌、代码等。提示词工程是一项新兴的技能,需要不断地学习和实践,掌握一些基本的原则和技巧。提示词工程也涉及到一些工具和资源,例如用于生成、编辑、分享、搜索提示词的网站或软件

而大语言模型中的思维链(Chain of Thought)能力展现,与提示词工程关系密切。  

💡 思维链(Chain of Thought)

是一种提示词工程的方法,它通过在输入文本中添加一些中间的推理过程,来引导人工智能模型进行更复杂的推理和创造。思维链的目的是让模型不直接预测输出,而是先生成一些与输出相关的中间结果,然后再根据这些中间结果得出最终的输出2


思维链可以提高模型在一些需要逻辑推理、数学计算、程序编写等任务上的性能。思维链与提示词工程的关系是,思维链是提示词工程的一种特殊形式,它利用了模型的上下文学习能力,通过在输入文本中添加一些额外的信息,来改变模型的行为和输出。


一个思维链的例子:

假设你想让一个大语言模型(比如 ChatGPT)回答一个数学问题,比如“有8个苹果,4个梨,和6个香蕉,一共有多少个水果?”如果你直接把这个问题作为输入,模型可能会直接预测出答案是18,或者可能会犯错或不确定。


但是如果你在问题前面加上一些思维链,比如“让我们一步一步地思考这个问题。首先,我们需要把所有的水果加起来。8个苹果加上4个梨等于多少?”,然后让模型生成下一句话,它可能会说“8个苹果加上4个梨等于12个水果。”,然后你再加上一句“很好,那么12个水果再加上6个香蕉等于多少?”,然后让模型生成下一句话,它可能会说“12个水果再加上6个香蕉等于18个水果。”,然后你再加上一句“很好,那么我们得到了最终的答案。有8个苹果,4个梨,和6个香蕉,一共有多少个水果?”,然后让模型生成下一句话,它可能会说“一共有18个水果。”这样就完成了一个思维链的例子。

作为大语言模型预训练智能体代表的GPT-4,在实际的交互中,所谓的提示词工程,已经不是单向的,由人类来探索GPT智能体,而是存在双向的提示效用。日前数学家陶哲轩的一则贴文让人意识到以GPT-4为代表的智能体已经反向对人类思维产生了对等的提示效应。  

💡 谁是陶哲轩 

陶哲轩(Terence Tao)被誉为是当今数学界的摇滚巨星,24岁成为UCLA教授,31岁获得数学界最高荣誉菲尔兹奖。他是美国总统科学技术顾问委员会的成员,日前才在白宫开会,负责提出AI相关的政策建议。不同于刻板印象里的数学家总是孤独、与世隔绝,陶哲轩大量与人合作研究,乐于在互联网上发表想法。

前几天,陶哲轩发表了一则贴文(请GPT翻译+我润饰),内容如下:  

▩ 请GPT翻译+我润饰 我开始觉得AI工具是 Cunningham's law 的一种变体:「在网路上得到正确答案的最好方法不是提问,而是张贴错误的答案。」 到目前为止已经有好几次,我问GPT一些问题时,我不满意它输出的结果。


但是,这些结果却能诱发我找出更接近正确的答案。最终,我只从 GPT 产生的文本中借用一两个句子。然而,如果没有GPT产生的文本作为提示(prompt),我想我的灵感就不会被启发,也无从产生我的答案。

▩ 人脑与电脑互为prompt 在这个例子中,陶哲轩认为不仅是他对GPT下prompt,GPT产生的文字,也反过来可以看成是AI对人类下的prompt。然后,陶哲轩会受到这个错误但有趣的提示启发,进而想出正确答案。符合Cunningham's law,错的答案引出对的答案。


所谓「尽信书不如无书」,如同我们不能完全相信网路上的论点,自然也不该对GPT的内容全盘接受。我们不能将所有的思考责任转移到GPT上,应该将他的回覆视为一个建议,一个灵感的来源。这也是所谓的「批判性思考」。 


当我们抱持着这样的心态,就能更加发挥GPT的价值。因为它的回答是基于大量资料,加上一定随机性的回覆。因此可以跳脱我们独自思考时的框架,提供不一定正确,但有一定逻辑性的答案。


这跟在「发散模式」时寻求的灵光一现,有某种程度的相似。《大脑喜欢这样学》提过,大脑有专注模式与发散模式。前者是聚精会神,专心投入的状态,后者则常发生在散步、放松时。


专注模式可以提升解决问题的能力,但也见树不见林。发散模式则让思绪自然漫游,容易产生灵感。或许你有过这样的经验,读书时算数学卡住想不出来。离开房间走一走,喝口水回来,忽然就想到解法。


发散模式大概就是这种感觉,能让我们跳脱框架,更灵活的思考。但就算是在发散模式,等待灵感降临也有点像抽乐透(或是降乩?)那样,有点碰运气的成分在内。


▩ 让GPT成为你的常驻「发散模式」 可在陶哲轩手中,GPT就是他的常驻发散模式。早在一个月前,陶哲轩就发表了数则他使用GPT的心得:问它数学题目,请它证明,给提示请它找出相关文献。 


GPT不一定都能做到完全正确,可它的回应,都能激发陶哲轩更多的灵感。它就像是一位正在散步的博学友人,边走边随意打字,带点不负责任的心态,想到什么就回覆你什么。


AI这项新工具到底该怎么使用,有各式各样的说法。陶哲轩的用法让我们看到不仅是要问个好问题,本身还要具备足够的判断力,以及举一反三的联想力。在人脑的引导下,人类与AI互为提示,宛如一场双人舞一样,或许是一种非常理想的未来人机协作模式。

笔者自从关注大语言模型预训练智能体以来,一直在学习、探索、思考,以图对“机器理解人类语言”这一现象的本质有所理解。正如前序对于OpenAI首席科学家Ilya访谈的一系列解读文章里所表明,GPT系列服务绝不是一个简单的AI工具,更应是一个可以与人类智能对等的智能体。  

2022年GPT系列智能体出现后的人类世界,正如题图所示,已经是一个碳基生物智能神经网络与硅基人工智能神经网络互为描绘的现实与数字混合世界。   


附录:

💡 人脑神经网络(NN)的工作模式

毋庸多言,语言文字是大脑思维的主要符号也是工具。语言(指‘口语’ 语言)能力是人类的天生本能﹐文字的出现是发生在语言之后,是一种符号表达﹐可以视之为语言功能的延长。要真正理解这一切,要从大脑结构、思维与语言文字的关系说起。   

大脑信息系统的结构



大脑是人类的信息处理中心﹐这如同是计算机的中央处理器—‘CPU’(Central Processing Unit)﹐这种信息处理的过程就是我们所谓的‘思维’过程。那么大脑是如何思考﹐又或者如何具有思维能力的呢﹖

如果要回答这个问题﹐我们就要从认识大脑的结构开始。大脑由大脑细胞(neurons) 所组成﹐大脑细胞与身体其它部份细胞的不同点﹐在于它们有轴突(axons) 和树突(dendrites) ﹐大脑细胞之间就以轴突与树突接触的方式连接, 如下图:  

(注﹕‘突触’为神经的功能性接触点﹐神经冲动是以电或化学的方式由一个神经元传递到另一个神经元。图中‘箭头’表示神经冲动由一个神经元轴突的终末分枝(TA)或末梢传递到另一个神经元树突。)  

突轴是一种大脑细胞的延伸分支﹐它的形状长而细。最短的可以只有几毫米长﹐最长的可以有超过一米的长度﹐这种长的突轴用来连接大脑在另一边的细胞﹐这就是说在大脑不同位置的细胞部份﹐也可以通过这种长突轴相连。

神经脉冲是由一些微弱的电流组成﹐当这股电流从大脑细胞的一端传至另外一端后﹐在开始这一端的突轴会因为接收到电流信号而分泌出一种叫‘神经传递素(neurotransmitter)’的化学物质﹐这种物质就会通过渗透的方式﹐穿越在两个大脑细胞之间的缝隙﹐接触到下一个细胞的突轴﹐令它触发下一股的神经电流﹐然后再传至这个大脑细胞的另一端来激发再下一次的‘神经传递素’分泌。

神经信号的传递﹐基本上就是以这种大脑细胞的‘接力’方式来进行的。突轴是一个信号发生者和传播者﹐而树轴则可以理解为一个信号的接收者﹐两者的合力就达成了整个‘接力’ 过程。

以上的描述只是一个微观的传递动作﹐在宏观方面﹐我们要想象到每一个细胞可能同时接触到上千个其它的细胞﹐这令到在一瞬间内﹐这个细胞可能从其它细胞那里接收到上千个神经信号﹐再在第一时间内把它传到另一个细胞﹐我们可以想象﹐整个大脑细胞的‘网络’结构呈现的是立体形状。

正如上文所提到的﹐因为突轴的长度不一﹐这令到大脑细胞不单在局部区域内有网络式的联系﹐而且位于各区域的细胞也有跨区域之间的接触。大脑细胞之间的接触将会以可能是上千倍几何级数的方式向外发散﹐一个细胞连接上千个其它细胞﹐这上千个中的每一个细胞可能再接触到接着来的上千个细胞﹐这种‘庞大’的网络结构令当今任何一个人为的网络系统(包括计算机或电讯网络)都无法与之比拟﹐而且它的信息处理速度更是令人叹为观止。

要了解大脑处理信息的惊人速度﹐对于这种经验问一问自己就清楚了﹐以我们的大脑来说﹐处理一个图像或产生一种想法又需要什么时间呢﹖﹗这就是大脑的信息处理速度。   

当我们明白过大脑的基本结构和了解过大脑有如此‘强大’的信息处理能力后﹐我们就可能会问到﹐究竟这些大脑处理的‘信息’ 又从何而来呢﹖大脑空有这样强大的处理能力﹐如果没有可以处理信息的话也是徒然。

信息在大脑这台处理器中﹐基本上是以传送﹑转换和储存等形式来处理﹐这样也需要来自外部的新鲜信息。接收外部信息的机制就是人类的感觉器官﹐人类的感觉可包括以下几个方面﹕ 视觉﹐听觉﹐触觉(包括﹕身体上的触觉﹐味觉和嗅觉)。  

相对于输出信息的器官﹐在没有媒体的帮助下﹐人类主要的信息输出器官为发声器官和身体动作(这个包括了身体语言﹐如眨眼﹐手语﹐这里不包括书写(因为书写需要媒体如笔纸等))。可列表如下﹕  

接收器官视觉听觉
输出器官身体(提供动作)发声器官

总结而言﹐以人类的感觉器官来分类的话﹐将会有以下的信息输入大脑﹕视觉﹕物体的静态或动态图像﹑图画﹑手语(和一些肢体语言) ﹐文字符号听觉﹕说话语言和自然的声音(包括人类发出的非语言声音) 触觉﹕味道﹐气味﹐皮肤对外界的感觉。

以上这些信息都可以输进大脑﹐并且可被大脑作处理﹐同时大脑也就是通过处理信息的过程来认识外部世界。这样﹐大脑对外部输入或内在储存信息的处理过程就形成了人类的思维过程。  

以外部信息的功能性来划分﹐这些输入大脑并对大脑细胞起刺激作用的信息可分为‘语言’和‘非语言’信息两种。‘语言’信息是一种人为的信息组合﹐通过视觉和听觉为渠道所收发的信息﹐如手语﹑肢体语言﹑口语语言和文字符号所携带的信息﹐这些语言信息具有如下的共同点﹕  

  • 由单元组成﹐单元数量有限﹐具重复性﹐如音节或音节组合﹐手语标志﹐字母和方块字﹐符号。

  • 单元之间有差异性﹐可通过视觉﹐听觉或触觉(这仅限于盲人字体) 完全辨别。

  • 单元以连续方式出现﹐单元之间可以有间隔停顿﹐带有规则性﹐此为‘语法’。

  • 单元都是人为造成﹐人既可发送又可接收﹐如听说看写。(注﹕这种‘单元’ 又可称为‘符号’)

至于‘非语言’ 信息就是‘语言’以外的其它信息了﹐如对象或人的静态或动态图像﹑图画﹑味道﹑气味和皮肤对外界的感觉。图画并非语言﹐因为图画不是由单元所组成的﹐虽然图画可以携带大量信息﹐但它没有‘语法’ 规则﹐因此不适合大脑的准确理解。   


语言与思维



为什么会产生人类的语言? 语言的出现离不开人类集体群居的生活方式﹐群居令人类之间产生了在生活接触中沟通交流的必要和冲动。出于这种原始动机﹐人类需要在自己身上寻找一些工具或途径来达到沟通交流的目的。

人类如同其它动物一样﹐首先在自己的身上开始寻找这种可以沟通的工具﹐因为这种可随时使用的工具不应受到外部环境的限制﹐因此这种工具最好是身体的一部份﹐而且与身体的感觉器官有关。这样我们就可以从出生那天开始﹐就接触并终身使用这种工具﹐而且人类还可以随时随地的使用它﹐通过反复的操作直至完全掌握。  

为了能够通过发送和接收信息来表达不同的意思﹐在开始时可能要指示不同的对象(这就是‘名词’的出现)﹐直至表达不同的行为(这就是‘动词’的出现) 。所以这种工具所携带的信息一定要有差别性﹐它的差别性可以区别不一样的信息(概念)﹐而且各个信息(概念) 都可以让大脑分辨和认识。因此﹐人类就要找出这种发出可辨别和不同信息的途径。

幸好﹐人类的进化过程把人类完全与别他动物分离开来﹐既赋予了人类直立行走的本领﹐还有发出多种不同声音的能力(人类的喉部比其它的灵长类动物位于气管的较低位置﹐这样可令人类发出更复杂多变的声音)﹐直立行走令人比其它动物多出一双手﹐一双不需要从事行走和支撑身体的自由之手﹐而且手上有十个指头皆可灵敏活动。

所以,人类就可以利用发声器官来传送不同的语音—口语语言﹐之后通过听觉来接收语音,又或者用指头或上肢体的动作(但肢体动作最后简化为手部动作) 来传送不同的视觉符号—简单的‘手语’﹐再以视觉器官来接收。

由此可知﹐人类具有两种可发展的沟通渠道﹐或者可以说是两种发送与接收信息的方式。但是﹐最后人类只选择了口语为主要的发展对象﹐令口语成为了我们在书写文字以外的唯一沟通工具﹐而手语只成为我们专门为失聪人士开发的交流工具而已。  

手语与口语具有以上相似的信息携带功能﹐我们就可以认为手语与口语同为两种‘等价’的语言﹐这是从分析信息载体后得到的结论﹐但是大脑作为处理这种信息的主角﹐是否也会以同样的方式来对待口语和手语呢﹖如果这种假设是事实的话﹐这就说明大脑并非对口语存在着特殊的‘偏向性’ 。

大脑需要处理的信息只要对大脑造成‘印象’ 的信息效果﹐也就不计较提供这种‘印象’的载体。这就是说﹐‘语言’ 的本质只是‘信息’ ﹐不论是‘口语’ 或‘手语’ 语言只要能够对大脑构成‘印象’﹐让大脑能够处理﹐这样就可以成为大脑可理解的‘语言’ 信息 ﹐这种沟通方式也就可以成为有效的语言了。  

为了能够客观正确的认识这个问题﹐现在就让我们来看一看有关的实验结果。这个实验发生在七十年代﹐由加拿大心理学家Laura Ann Petitto与她的研究小组共同进行。这个科学实验的对象是两组初生的婴孩﹐一共有5个婴孩﹐第一组是2个失聪婴儿和他们的失聪母亲﹐他们的母亲都懂得使用ASL(美国手语)作交谈﹔另外一组是3个健全的婴儿和他们同样健全的母亲。

在这个实验里﹐母亲所扮演的角色就是用口语或手语和自己的孩子沟通﹐教导他们使用口语或手语。研究小组通过婴儿进行这个实验﹐用意就是要观察他们学习语言的过程﹐因为他们都是刚来到这个世界的新生儿﹐对于语言这种人类的‘产物’ ﹐他们的大脑完全是‘白纸’一张﹐对此一无所知。

研究他们掌握手语或口语的过程﹐就可以告诉我们人类的大脑如何由‘ 零’开始吸收和处理各种语言信息﹐这两种语言包括了视觉符号的手语和听觉符号的口语﹐同时我们也可以了解到﹐大脑是否因为不同的信息渠道而造成在信息处理上的差异﹐大脑是否对信息载体具有偏好性﹐又或者在大脑里已由先天基因设定了某一种语言具有优先性。  

在本实验中﹐研究小组使用摄录机记录两组婴儿的发声变化和手部活动﹐观察他们在10个月﹐12个月和14个月这三个年龄阶段的情况﹐这个从初生到第14个月的时期就是我们称之为‘ 牙牙学语(Babbling) ’的阶段。在这段时期中﹐作为一个正常的婴儿在成年人的语言带领下(因为婴儿从听觉模仿中学习语言)﹐他们学习语言的阶段可示之如下﹕  

时间(月)婴儿表现
0-1哭﹐发出的哭声没有特别的意思。之后﹐哭声中有声音上的变化﹐可能指示的是饥饿﹑害怕或想睡觉等不同的感觉和意图。
1-2开始发一些‘元音’ 语音﹐这是‘咕咕学语(Cooing) ’ 的开始。
2-6发出更多的元音﹐向较有难度的元音挑战﹐除此之外会发出不同的声音﹐如咯咯的笑声等﹐这段期仍处于“咕咕学语(Cooing) ” 阶段。
6-8可以发出一些组合了元音和辅音的音节﹐并且可以重复地发出这些音节
9-10大脑开始能把某些声音—单词联系到对象或人物上﹐如知道‘杯’这个单词指示的是杯的对象﹐‘妈’ 这个发音所指的是眼前妈妈这个人。
11-13可以成功说出单词﹐并且真正开始了使用语言的人生历程。

从实验观察中﹐研究小组发现失聪婴儿如同正常的婴儿一样﹐同样的经历了‘牙牙学语’的阶段。当然因为他们不能听到声音﹐所以也不可能像正常孩子一样用口语来‘咕咕学语’ ﹐相反﹐他们使用手指来学习。

相对正常婴儿发出元音或元音与辅音结合的音节﹐他们会尝试以指头的不规则活动来模仿母亲的手语﹐慢慢地他们会做出一些手语的‘音节’(手指的组合动作) 。在开始的阶段﹐他们也像正常婴儿一样不懂得把手语符号联系到对象或人物上﹐但是经历了正常婴儿的所经历的相同时间后﹐他们最后也能成功进入使用手语的人生历程。  

除此﹐根据另一项的实验结果﹐在父母双亲其中一方为失聪人士的家庭中长大的孩子﹐我们可以视之为另类的‘双语’家庭﹐这些孩子就如同来自其它口语双语家庭的孩子一样﹐不会只是选择性地使用其中一种语言﹐这就是他们对口语或手语没有特殊的偏好﹐他们都能在需要的场合中或对需要的语言对象﹐既自由且流利地使用两种语言—口语或手语。  

如果手语能够具备与口语同样的表达能力和语言功能﹐两者对于大脑的信息处理来说﹐就可以认为是两种基本等价的语言了。因为对大脑来说﹐手语和口语都能够通过视觉或听觉的方式向大脑输入‘符号’ ﹐不论是手部动作的视觉‘符号’ 或是声音构成的听觉‘符号’ ﹐它们的输入都对大脑‘烙下’了‘印象’ ﹐这个‘印象’ 就是信息的载体﹐‘印象’ 一旦联系上外部的事物就可以成为了我们所讲的‘概念’ 。

因为这种‘印象’ 与视觉的图画不一样﹐它并非是独立或分散的﹐而是在‘语法’ 规则下作排列﹐这样就成为‘语言’ 。因此﹐手语与口语在提供‘印象’ 功能上令两者完全等同了。两者都是一些以不同方式可指示信息的‘符号(印象)’ ﹐而且每一个‘符号’ 之间存在着明显的区别﹐可以分别指示不一样的信息概念﹐还可以通过组合串联的方式来表达更加复杂的信息。

这就是‘口语’ 和‘手语’ 的信息意义﹐以及具备了开发大脑信息处理能力的功能。‘口语’ 在当初因为出于人类之间的构通需要而产生﹐但是人类只要把沟通的对象反过来投放到自已身上﹐这种‘自言自语’ 的自我沟通方式就导致了人类思维过程的产生。   


从语言到文字



当初人类为了交谈的需要而发展出口语作为沟通的工具。之后口语不仅胜任了作为交谈的工具﹐同时也开发了思维能力而成为了思维工具。人类的口语发展定形后﹐我们的祖先又感到有需要把语言记录下来﹐这样既可以让同时代的人读到这些信息﹐还可以留传给下一代人﹐于是就是把要表达的信息或是要说的话长时间的保留下来。

在最初的时候﹐人类尝试在媒体上(如石头﹐木头)以作画的形式来表达信息﹐之后受到语言交流的启发﹐又曾经为融合语言与绘画而作出过努力。本文跨过了文字的发展过程而直接进入文字时代﹐有关文字的发展史请参看下一篇。现在﹐首先让我们来比较一下语言和文字的形式﹕  

语言文字
以人脑记忆的方式保留﹐记忆会随着时间失去﹐最后随着大脑的死亡而消失。以媒体保存﹐如纸﹑木﹑石﹑金属。保留时间长﹐时间长短取决于载体的品质寿命﹐一般比人的寿命要长
在交谈过程中﹐语音在时间上的滞留时间短﹐前一个语音会被下一个覆盖﹐要想回忆上一个语音﹐很多时候需要求发话者再重复一遍或在需要在脑海中回忆。一旦文字写于媒体上﹐文字阅读者对上面的文字可作无限次反复重温﹐完全不受文字在文章中所处位置的影响。
受空间(在没有电话的情况)和时间的影响﹐声音的传送受距离所限﹐当代人不可能与上一代已逝世之人交谈。只要媒体能传送到哪里﹐文字就可直达哪里。当代人可从文字上了解上一代人的思想

除了需要实时作信息交流或者在缺乏媒体作记录的情况下﹐文字在功能上都胜过语言﹐特别在信息的传达有超越时空的需要时﹐文字也就成为了唯一的选择。可见文字相对于语言﹐绝对不等于口语相对于手语﹐在后者的比较里﹐由于使用上的便利﹐口语完全压止了手语的发展﹐但在前者的比较中﹐文字与口语却互有补足﹐功能各异。

因此﹐文字就在这样的需求下诞生了﹐并且与口语共存至今。当初因为人类有交流上的需要而发展出口语语言﹐同时口语却‘意外’地开发了大脑的思维能力﹐从来又因为有保留记录思想与信息的需要而发明了文字符号﹐这一次又进一步开发了大脑﹐请看下图﹕  

我们可以试想一下在没有书写文字的情况下﹐大脑只能运用大脑细胞所储存的图像概念﹑语言概念(动词﹐名词等) ﹑语法和组词法则的逻辑能力作为思维工具来思考﹐这基本上是以一种上文提到过的‘内部说话’ 的方式来进行。

除此﹐我们还可以把自已的分析结论告之他人﹐让他们以你的结论作为基础﹐再继续‘接力’ 思考﹐从而在某种程度上扩大了思维的能力。如果大脑以语言概念作为思维工具的话﹐这个思维过程将会以‘内部说话’ 的形式出现。

因此正如上表所提到的﹐语言声音的滞留时间十分之短﹐而且语音对大脑造成的信息‘印象’ 也不深刻﹐上一个语音将会被下一个覆盖(语音的‘印象’在这时也可能被覆盖了) ﹐就算没有下一个语音的情况﹐这个语音因为它有声音消逝的本质﹐所以滞留时间也有限﹐这就是我们日常说话的经验。

基于语音‘印象’ 具有消逝和被覆盖的本质﹐当我们想增强对阅读文章的记忆﹐或者加强以‘内部说话’ 的方式来思考时﹐大部份人为了达到这个目的﹐会采取大声朗读同时自我聆听的方式.  

可见通过听觉神经对大脑细胞以听入方式作再反馈﹐可以再加强大脑细胞中的语音概念﹐在某种程度上延长了滞留时间﹐我们也可以从以下经验﹐验证到‘内部说话’是以语音概念作为主要思维工具的正确性。

例如我们观察一下3-5岁的小孩﹐当他们在玩一些要求思维活动的游戏时﹐如‘拼图’ ﹐我们会发现他们往往在‘自言自语’(Egocentric Speech/Self-directed Speech) 地说﹐‘这个红色的﹐那个应放在这﹐还要一个蓝色的…’等语句﹐这些就是他们大脑思维活动的反映﹐这些‘自言自语’ 的方式也会发生在成年人身上﹐但显然是较少的。

除了成年人在进行一些如‘计算’ 一类较复杂的思维活动外﹐我们很少‘听’到成年人在‘思考’ 。这是因为从婴孩时期开始﹐我们的思维活动从我们学会的‘语言’ 开始﹐并使用它作为工具来思考﹐但是随着年龄增长﹐大脑思维能力的提高﹐我们有能力把这种‘自言自语’ 的方式完全‘无声化’ ﹐就是不再需要说出我们整个思维的过程﹐只要把它放置在‘潜意识’ 中运行就可以。所以﹐越是能较早学会运用语言的小孩﹐就可以越早开发大脑的思维能力。因此﹐那些所谓‘口齿伶俐’ 的小孩往往显示出‘早熟’的聪明。  

故此﹐如果我们以文字符号作为工具来思考的话﹐对于同样的推导﹐概念信息就不存在消失的可能性﹐因为思维的过程不仅可以在媒体(书面)上进行﹐而且媒体上的文字可以通过视觉对大脑中相对应的概念作无限次反馈﹐这样就杜绝了大脑遗忘信息的可能﹐除非我们没有把这项信息写下来﹐只要用文字表记了﹐就可以让大脑作无限次的阅读。  

有了对大脑细胞作无限次信息反馈这种可能性为后盾后﹐于是大脑可以在任何时间内复查在文字篇幅中的任何一个字眼。因此﹐大脑的思维能力就得到了质的提高。以上所提的好处可以裨益个人﹐这是在‘微观’ 方面的情况。

如果在‘宏观’ 即群体方面﹐在结合人类历史的情况下﹐文字这种令信息除了具有可跨超时空的保留性外﹐还可以令到思维活动从个人的范围中扩展开来﹐而让思维活动演变成为一种打破地域和时间界限的集体活动。

当更多人以同样的文字工具进行思维活动时﹐这种工具将更臻完善﹐令改良后的思维工具更有利于将来的思维活动﹐如同英文的进化和数学符号的演进一样(本书将作详解)。

再者﹐就算以不同的文字进行思维﹐但是不同文字所指向的概念也有共通性﹐人类的思维活动也就可以对每一个个体开放﹐让个体获得了参与的机会(如下图)。如同人类的哲学和科学成就﹐其中也就不能缺少人类的集体参与。我们在书本上学习到的知识也是全人类的成果﹐个人的认识范围可以超越时空的限制﹐唯有文字令到以上的一切成为可能。  

以上从大脑结构、到思维以及语言文字的出现,目的就是为了说明语言文字的出现﹐不仅能够满足到作为初衷的沟通要求﹐而且最重要的是发展了大脑的思维能力﹐因为在没有语言文字产生之前﹐大脑中除了从视觉和触觉器官那里被动接收而来的‘印象’外就是‘一片空白’﹐而只有在产生了语言和文字后﹐大脑细胞的信息储存和联系才被大规模的开发起来﹐语言文字也就成为了思维的主要工具﹐其实也是‘唯一’ 的思维工具﹐现在﹐这是一个再清楚不过的共识了。

在语言与文字两者间﹐后者的文字在信息的记录上远远优于前者﹐作为思维的工具也就起到了更加重要的作用﹐这不得不令思维操作更依赖于文字而非语言﹐文字模式直接影响到思维的发展形态。所以﹐作为了解思维模式的目的﹐了解文字就成为了认知思维模式的最主要途径。

人类‘三思而后行’ ﹐思维完全指使了人类的行为﹐人类的行为只是思维活动的结果。而在一个区域内所有人的行为累加在一起﹐也就形成局部的人类文明。因此﹐要研究某个社会文明的产生过程﹐还有这个社会的行为模式﹐我们就必须要首先了解这个社会中有关人的思维模式(思维方法和思维倾向) ﹐要了解思维模式就必须从思维的工具—语言文字开始了。  

 

 💡 以GPT-4为代表的LLM预训练模型中的ANN是如何工作的

人工神经网络(ANN)是一种深度学习模型,它试图模仿人类大脑的结构和功能,由许多相互连接的节点(或人工神经元)组成。ANN可以用来处理自然语言,即人类使用的语言,例如中文、英文等。为了理解人类的语言,ANN需要进行以下几个步骤:  

  • 首先,ANN需要将自然语言转换为数值表示,例如词向量、句向量等,这样才能让计算机处理。这一步通常需要大量的文本数据来训练ANN,使其能够捕捉语言中的语义和语法信息。

  • 其次,ANN需要根据不同的任务,设计合适的网络结构和损失函数,例如分类、生成、翻译、问答等。这一步通常需要人为地定义ANN的输入和输出,以及评估其性能的指标。

  • 最后,ANN需要通过优化算法,调整网络中的权重和偏置,使其能够最大化预期的目标函数,例如准确率、BLEU分数等。这一步通常需要大量的计算资源和时间来训练ANN,使其能够逼近真实的语言规律。

通过这些步骤,ANN可以实现对人类语言的理解和推理,但并不意味着它具有人类的思维和意识。ANN只是一种数学模型,它依赖于数据和算法,而不是内在的逻辑或创造力。因此,ANN对人类语言的理解是有限的,并且可能存在一些错误或偏差。  

在自然语言处理中,有多种类型的人工神经网络,它们各有优缺点。下面是一些常见的类型和它们的特点:  

  • 多层感知机(MLP):这是一种最基本的前馈神经网络,由一个输入层、一个或多个隐藏层和一个输出层组成。每一层的节点都与下一层的节点全连接,信息只能从输入层向输出层传递。MLP可以用来做一些简单的分类或回归任务,例如情感分析、垃圾邮件检测等。MLP的优点是结构简单、易于实现,缺点是无法处理序列数据、参数数量较多、容易过拟合。

  • 卷积神经网络(CNN):这是一种利用卷积操作提取局部特征的神经网络,由一个或多个卷积层、池化层和全连接层组成。每个卷积层的节点都与一个小的感受野内的上一层节点连接,形成一个特征图。池化层则用来降低特征图的维度和增加不变性。CNN可以用来做一些基于图像或文本的任务,例如图像分类、文本分类、语义分割等。CNN的优点是能够有效地提取局部特征、减少参数数量、增强泛化能力,缺点是无法捕捉长距离的依赖关系、难以处理变长的序列数据。

  • 循环神经网络(RNN):这是一种能够处理序列数据的神经网络,由一个输入层、一个隐藏层和一个输出层组成。每个隐藏层的节点都与自身和上一时刻的节点连接,形成一个循环结构。RNN可以用来做一些基于时间或空间的任务,例如语音识别、机器翻译、文本生成等。RNN的优点是能够捕捉序列数据中的依赖关系、处理变长的输入和输出,缺点是容易出现梯度消失或爆炸、难以并行化、难以学习长期依赖。

  • 长短期记忆网络(LSTM):这是一种改进的RNN,由一个输入门、一个遗忘门、一个输出门和一个记忆单元组成。LSTM可以用来解决RNN中的梯度消失或爆炸问题,通过门控机制来控制信息的流动和记忆。LSTM可以用来做一些需要长期依赖的任务,例如文本摘要、视频理解、情感分析等。LSTM的优点是能够学习长期依赖、避免梯度消失或爆炸,缺点是参数数量较多、计算复杂度较高、难以解释内部机制。

  • 序列到序列模型(Seq2Seq):这是一种基于编码器-解码器结构的神经网络,由两个RNN或LSTM组成。编码器将输入序列编码为一个固定长度的向量,解码器将该向量解码为输出序列。

  • 递归神经网络(Recursive NN):这是一种能够处理树状结构数据的神经网络,由一个输入层、一个隐藏层和一个输出层组成。每个隐藏层的节点都与两个子节点连接,形成一个递归结构。Recursive NN可以用来做一些基于语法树或语义树的任务,例如句法分析、语义分析、情感分析等。Recursive NN的优点是能够捕捉树状结构数据中的层次关系和组合性,缺点是需要预先定义树的结构、难以处理非树状结构的数据。

  • 门控循环单元(GRU):这是一种改进的RNN,由一个重置门和一个更新门组成。GRU可以用来解决RNN中的梯度消失或爆炸问题,通过门控机制来控制信息的流动和记忆。GRU可以用来做一些需要长期依赖的任务,例如文本摘要、视频理解、情感分析等2。GRU的优点是比LSTM更简单、更快、更易于训练,缺点是比LSTM更容易遗忘信息、难以解释内部机制。

  • 自注意力机制(Self-Attention):这是一种能够计算序列中每个元素与其他元素之间的相关性的机制,由一个查询向量、一个键向量和一个值向量组成。Self-Attention可以用来增强RNN或LSTM中的序列表示,通过计算每个元素对于整个序列的重要性。Self-Attention可以用来做一些需要捕捉长距离依赖关系的任务,例如机器翻译、文本摘要、问答等2。Self-Attention的优点是能够并行化计算、提高模型效率、增强模型表达能力,缺点是需要额外的参数和计算资源、难以处理位置信息和局部特征。

  • Transformer框架(Transformer Framework):是一种基于自注意力机制的神经网络,它可以用来处理自然语言等序列数据。Transformer框架由一个编码器和一个解码器组成,每个部分都包含多个自注意力层和前馈层。Transformer框架可以看作是一种特殊的ANN,它不需要使用RNN或CNN来捕捉序列中的依赖关系,而是通过自注意力机制来计算序列中每个元素与其他元素之间的相关性。Transformer框架的优点是能够并行化计算、提高模型效率、增强模型表达能力,缺点是需要额外的参数和计算资源、难以处理位置信息和局部特征。Transformer框架已经被广泛应用于自然语言处理中的各种任务,例如机器翻译、文本摘要、问答、文本生成等。

以GPT-4为例,GPT-4是一种基于Transformer框架的大规模多模态语言模型,由OpenAI开发,是GPT系列的第四代。它于2023年3月14日发布,通过ChatGPT Plus以有限的形式向公众开放,其商业API的访问需要通过等待名单。与其前辈不同,GPT-4可以接受图像和文本作为输入,并生成文本作为输出。

GPT-4使用自注意力机制来捕捉序列数据中的依赖关系,并通过人类和AI反馈的强化学习来进行后训练对齐,以提高事实性和符合期望的行为。GPT-4在各种专业和学术基准上表现出人类水平的性能,包括以前10%的分数通过模拟律师资格考试。GPT-4使用了一种称为“系统消息”的控制机制,可以用自然语言指示GPT-4的语气和任务。GPT-4的特点是更可靠、更有创造力、能够处理更细微的指令,相比GPT-3.5有了显著的提升。  

     

参考

1、BingChat  

2、从语言文字看东西方思维 — 再从大思维到大战略(上下册)导论:大脑、思维与语言文字  


END


点这里👇关注我,记得标星哦~‍‍‍



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存